A summary in English follows below 


Nordic Words (Nordiska ord) påbörjades hösten 1996 som ett delprojekt inom Projekt Runeberg. Det drevs 
aktivt under 1997 av Anders Brun, men sedan hände inte så mycket. Avsikten var att sammanställa och publicera 
användbara, kostnadsfria och fritt tillgängliga ordlistor på de nordiska språken, i första hand för underlätta 
stavningskontroll. Diskussionen började i den svenska Usenet nyhetsgruppen swnet.org. skolverket.skol-net (sök 
i Google Groups). 

Under flera år (cirka 1997-2004) utgjorde webbplatsen www.speling.org en samlingsplats för stavningsordlistor 
på de skandinaviska språken, under ledning av Jacob Sparre från Skåne-Sjaelland Uinux Users Group (SSLUG). 
Ordlistorna har utvecklats i symbios med olika fria programvaror för stavningskontroll: spell (UNIX-klassiker), 
ispell (ursprungligen för PDP-10, 1971), GNU Aspell och Pspell (båda av Kevin Atkinson, sedan april 2000), 
MySpell (Kevin Hendricks), Hunspell (Németh Låszlö, sedan 2005), som i sin tur ligger till grund för 
stavningskontrollen i olika tillämpningsprogram som GNU Emacs, OpenOffice.org, Abiword och webbläsare 
som Opera och Mozilla Firefox. Den svenska ordlistan till ispell, som 1996-1997 skapades av Göran Andersson, 
underhålls sedan 2003 åter av honom på adressen DSSO.se. 

Till utvecklingen kommer Wikipedia (grundad 2001) med sidoprojektet Wiktionary, där man hittar definitioner 
av alla tänkbara termer på olika språk, men också en stor sökbar textmassa med exempel på ordens användning. 
Vidareutveckling av språkstödet inom OpenOffice.org innebär att även grammatikkontroll och synonymordbok 
behöver anpassas till olika språk. För detta krävs ett underlag som ännu (2006) saknas på svenska. För flera 
andra språk, men inte de skandinaviska, finns omfattande översättningsordlistor, till exempel inom projektet 
Freedict.org. 

Inom Projekt Runeberg har ordlistor sammanställts för hjälp vid OCR-tolkning av inscannade boksidor. Dessa 
omfattar äldre stavningsvarianter (gammalstafning) på svenska och danska/norska. 

OCR-ordlistor till ABBYY FineReader 

Dessa ordlistor kompletterar de som levereras med OCR-programmet ABBYY FineReader Professional version 
6.0, speciellt vad gäller stavningsvarianter före år 1900, som "maade", "Kjobcnhavn", "hvarför" och "derför". 
Ordlistorna har tränats vid OCR-tolkning av Projekt Runebergs inscannade verk under 2003 och 2004. Formatet 
PMD är Portable Morphological Dictionary. Inga garantier ges för att alla orden är korrekta eller för att 
ordlistorna skulle vara fullständiga eller ens lämpliga för något syfte. Men den som har behov, kan ju ladda hem 
listorna och prova. Fistorna omfattas inte av upphovsrätt. De får kopieras fritt. 

. Danska (TXT), danska (PMD), 12958 ord 

• Svenska (TXT), svenska (PMD), 46073 ord 

Fraktur-font för ABBYY FineReader (på prov): 

• fraktur.ptn, 8,5 megabytes 


Ordlistor 

Alla ordlistor följer samma enkla standard. Orden är sorterade efter bokstavsordning, ett ord per rad. Det 
teckensnitt som används är ISO-8859-1 (ISO-Latinl). Tecknet för ny rad är 0x0a. 



Ordfrekvenser från Projekt Runeberg 


• Frekvens 20070122, baserat på Projekt Runebergs delvis korrekturlästa OCR-text, enbart norska verk. 
Lars Aronssons svenska ordlista 

• ssl00.txt, 221.599 svenska ord (december 2006) 

Ordlistor donerade av Posten AB 

• Svenska gatunamn och utdelningsadresser (2.6 Mbyte) 

• Svenska ortsnamn (14 kbyte) 

Niklas Frykholms ordlistor 

. Ordlista med rättstavade ord 

• Ordlista med vanliga felstavningar 

Ord insamlade från nyhetsgrupperna swnet.* 

• 20000 ord som inte finns i Niklas ordlista. Kollad mha Stava. Innehåller en del skräpord (skicka 
gärna in rättelser). 

. 120000 ord från swnet samt från Niklas ordlista, filtrerade genom Stava. 

Udda ordlistor 

• Lista med ord som förblir giltiga ord även om man vänder dem bakofram. 

Mjukvara 


• Presentation av Stava (Unix) 

. Presentation av Excalibur (Mac) 

Planerna i stort (från 1996) 

Insamlandet av nya ord kommer till största delen ske automatiskt. Dels kommer valda delar av webben att 
dammsugas, i jakten på nya svenska ord att som ännu inte finns i vår ordlista. Dels hoppas vi på samarbete med 
tidningar och andra, som genom åren byggt upp stora textdatabaser av hög kvalité. Sist men inte minst kommer 
det också vara möjligt att manuellt komplettera ordlistan med nya ord. 

Att ord som läggs till ordlistan är rättstavade, är ett absolut krav. Datorprogram kan göra intelligenta gissningar 
om huruvida ord är felstavade eller inte, men i slutändan måste människor kontrollera att gissningarna verkligen 
stämmer. Det är också viktigt att alla böjningsformer av ord finns med i listan. 

Det krävs också en viss klassificering av ord, innan de läggs in i ordlistan. Vi vill undvika att fackuttryck, slang 
och egennamn hamnar i en och samma lista, utan att det går att skilja dem åt. Dessutom finns planer på att man 
ska kunna lagra t.ex. förklaringar och synonymer till ord. Inte heller detta arbete kan ske automatiskt, utan måste 
utföras manuellt. 

Det är också önskvärt att skilja på hur ord stavas i modern svenska, och på hur de har stavats förr i tiden. Lisa 
Hallingström har sedan tidigare arbetat med att framställa en ordlista som ska underlätta rättstavning av projekt 



Runebergs texter. Detta har resulterat i en ordlista på ca 20000 ord som är klassificerade efter tidsperiod. 

Arbetet är att verifiera nya ord, klassificera och manuellt addera nya ord till ordlistan, är ett tidsödande arbete - vi 
skulle aldrig klara av att utföra allt arbete själva. Därför har vi tänkt skapa ett gränssnitt mot WWW, så att vem 
som helst ska kunna medverka i arbetet att förbättra ordlistan. 

Vår förhoppning är att många språkintresserade svenskar kommer hjälpa oss med projektet. Tillsammans skapar 
vi en ny svensk ordlista. 


Summary in English 

Nordic Words is started in the autumn of 1996 as a subproject to Project Runeberg, working to compile and 
publish useful, free of cost, public domain spelling dictonaries for the Nordic languages, primarily Swedish. The 
subproject was actively maintained by Anders Brun during 1997, but not much has happened since. 

Presentation av Stava (Unix) 


skriven av Viggo Kann 

Stava är ett program som stavningskontrollerar en svensk text. Programmet delar upp texten i ord och slår upp 
varje ord i en ordlista med 200000 ord. Ordlistan är kodad som ett bloomfilter vilket gör att uppslagning går 
mycket snabbt men det är omöjligt att återvinna ordlistan i klartext. 

Stava har utvecklats av Viggo Kann och Joachim Hollman. Version 1.8 av Stava är fri för icke-kommersiell 
användning. 

Det finns en nyare version av Stava som utvecklats inom forskningsprojektet Algoritmer för svenska 
språkverktyg vid Nada , KTH. Det är endast en forskningsprodukt och är inte tillgängligt för användning 
utanför KTH. Den som vill testa den nya versionen kan dock göra det i www under adressen 

http://www.nada.kth.se/stava/. 

Presentation av Excalibur (Mac) 

skriven av Tomas.Risberg@swipnet.se 

Excalibur är ett rättstavningsprogram som kan användas i alla textbehandlande program för Macintosh. Det 
passar till exempel utmärkt för att rättstava inlägg i nyhetsgrupper eller för att rätta sin elektroniska post. 

Excalibur är gratis att använda och på programmets hemsida finns också en mängd gratis ordlistor för olika språk 
att hämta. 

Här är Excaliburs hemsida. 

Några extra Excaliburtips 

Excalibur ställs vanligen in så att det rättar Macens klippbord. Man kan manuellt klippa ut texten man vill rätta, 
sedan starta Excalibur och låta det arbeta. Därefter klistrar man tillbaka den rättade texten. 

Man kan underlätta detta arbete genom att kombinera Excalibur med makro-programnet KeyQuencer. Då kan 
processen att klippa ut, rättstava och sedan klistra in automatiseras. Med KeyQuencer rätt inställt behöver man 



bara trycka på en förvald tangent eller tangentkombination för att aktivera rättstavningen. 


Här hämtas KeyQuencer 1.2.2a som kostar 10 US$ efter en prövotid. På samma adress hämtas också 
KeyQuencer Lite som kostar 20 US$. På denna adress kan man läsa mer om den stora versionen av 
KeyQuencer som kostar ca 30 US$ och som inte kan prövas först. 

Olika Excalibur-inställningar 

Det kan vara en fördel då man arbetar med Excalibur att ha en separat inställning för varje språk man rättstavar. 
Man kan i programmet välja till vilken ordlista de nya ord man adderar skall läggas. Dock kan det gå snabbare 
att arbeta med programmet om man inte varje gång man vill spara några nya ord behöver ta ställning till vilken 
ordlista de skall sparas. 

Man måste för att göra ändringarna i Excalibur använda Apples program ResEdit, med vars hjälp man kan 
modifiera andra program. Det brukar ofta utfärdas varningar för att använda ResEdit som nybörjare, efterssom 
man kan riskera att göra program obrukbara, eller i värsta fall sitt operativsystem odugligt. Generellt kan dock 
sägas att problem med ResEdit undvikes genom att alltid arbeta med kopior av de program man vill modifiera 
och att ge dessa kopior andra namn än orginalen. 

öppna en kopia av Excalibur med ResEdit. öppna därefter resursen STR# 305 i Excalibur. Där står det Excalibur 
Preferences. ändra det till vad du vill - tex "Excalibur svensk stavning" - ändra också namnet på programmet 
Excalibur (kopia) till samma så att du vet vilket program som ger upphov till vilken programinställning. Nu när 
du startar ditt nya Excalibur och sedan tittar i mappen Programinställningar kommer du att finna en ny 
inställning med det namn du ändrade till i STR# 305. Enda nackdelen med detta sätt att skapa alternativa 
inställningar till Excalibur är att man måste ha en kopia av programmet för varje enskild inställning. 

This README file belongs in a file archive found at http://runeberg.org/words/frekvens-20070122.tgz 

The files in this archive document word frequencies by year and language, based on raw or proofread text from 
Project Runeberg's electronic faesimile editions, as of January 22, 2007. 

Project Runeberg is an archive of freely available electronic editions of classic out-of-copyright Scandinavian 
literature, http://runeberg.org/ 

Most of its titles consist of scanned images (electronic faesimile) and raw text from optical character recognition 
(OCR) in varying degrees of proofreading. Volunteers are welcome to help in proofreading the scanned text. 

Since the scanned images depict a partieular printed edition, the resulting text is tied to a publishing year and to a 
partieular orthography (details in spelling), which is not the case for electronic texts that are not backed by 
scanned images. 

Even if Ibsen's drama Peer Gynt was written in 1867 and first performed in 1876, its reprint in the author's 
collected works in 1898 marks the State of the Norwegian language at this latter year. This is the kind of 
Norwegian spelling that people were reading in 1898. It might be the authors' original spelling from 1867 or a 
modernized version of 1898, but it can't be modernized beyond the publishing year. 

The files herein are plain text, encoded in UTF-8. The file no-1880.top contains word frequencies in Norwegian 
books printed in the year 1880. The following list means that the word "og" occurred 8161 times. 

8161 og 5569 i 3896 at 3616 af 3359 den 

The words were extraeted with hunspell 1.1.4, having the following affix and dictionary files: 



—- blank.aff — - SET UTF-8 WORDCHARS .:-’0123456789 — blank.dic — 1 xyzzy 
and the Unix/Linux command line: 

sed ’s/<[ A >]*>//g' *.txt | hunspell -d blank -1 | sort | uniq -c | sort -nrf 

Having hyphen, period, apostrophe and digits in WORDCHARS means the output list will contain words such as 
"etc.", "Dyre-", "General-Vejmester", "3-årig" (3-year-old), "1700-talet" (18th century), "n:o" (numero), 
"1:20000" (map scale), "12:50" and "23:-" (prices). However, it also means that the period at the end of sentences 
will be included with some words. 

Non-proofread text with OCR errors will also appear, e.g. "wwTQft" and "forunderJigere". This can only be 
improved by further proofreading. Only using the fully proofread pages would have reduced the amount of text 
too much. 

The following printed and scanned volumes were used for each file. Prefix with http://runeberg.org/ 
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